### <headline> 区块

传统算法会将扫描键中字体较大或用黑体、粗体，或根据与正文的相对关系推测某些文字是标题，此时算法将会把这一区块内的文字是为 headline。它一般作为章节的标题。此外，若本书是文章集，则它可能表示特定一篇文章的标题。

此外，它可能是被误判的加粗文本，尽管这种可能性较低，但不能完全排除。例如，一段连续的列表中，重复出现的加粗文字也会被算法误判为标题。

### <figure>、<table>、<formula>

它们表示原始扫描件中的图形、表格、公式。算法无法向你提供图形信息（因为你是 LLM），因此这里仅有占位符让你知晓它们的存在。这三种标签的子节点表示图表的描述文字，你不可将之视为图表本身的内容，这些文字通常在图表的下方以不同字体显示，以与正文区分。